Nature子刊:浙大熊旭深团队开发基于Transformer的语言模型,预测翻译调控并解析疾病变异
来源:生物世界 2024-11-01 10:24
该深度学习模型Translatomer为领域提供了研究基因翻译调控的新工具,还为解释复杂疾病中的遗传变异提供了除了mRNA水平之外的重要机制基础。
浙江大学良渚实验室/附属第二医院熊旭深课题组在 Nature Machine Intelligence 期刊发表了题为:Deep learning prediction of ribosome profiling with Translatomer reveals translational regulation and interprets disease variants 的研究论文。
该研究发展了基于Transformer架构的多模态深度学习模型Translatomer(以Translatome和Transformer的结合词命名)用于预测细胞特异性翻译过程,填补了mRNA表达与蛋白质水平之间的差距,解析了复杂疾病的遗传变异对基因翻译的调控作用,为机制未知的疾病相关遗传变异提供了全新的分子机制见解。
Translatomer模型整合了基因序列和RNA-seq数据作为多模态输入,模型输出是以核糖体印记(ribosome profiling)信号作为代表的翻译组。Translatomer是由输入层,Transformer主干层,以及输出层组成。首先每个基因的RNA-seq和以one-hot编码表示的基因序列会被编码为512维的token,并进行信号的合并作为Translatomer的输入。
在Translatomer模型中,输入会先经过一个一维的卷积层(输入层)编码输入数据,然后经过一个由12层包含自注意力的Transformer组成的主干模块提取RNA-seq和基因序列的交互特征,最后经过一个输出层将信号解码为核糖体印记信号。Translatomer整合了来自33种不同组织或细胞系的基因序列和mRNA表达(RNA-seq)数据,能够准确地从头预测翻译信号,并捕捉到与翻译调控相关的序列特异性信息。在多个类型的细胞或组织的数据集中,模型从头预测的准确度达到了0.72-0.80,显著优于其他同类模型。此外,模型充分利用了RNA-seq作为输入的信息,获得了细胞类型特异性(context-dependent)预测的能力。
随后,研究者发展了两种模型的可解释性算法和工具。在第一种解释算法中,通过计算梯度加权输入分数定量分别评估了基因序列和RNA-seq两种输入信息对翻译预测的贡献。结果表明RNA-seq对翻译的预测贡献总体上高于基因序列,符合生物学上翻译主要由mRNA水平决定的这一事实。其中,编码区对翻译的贡献最大,内含子的贡献最小。此外,5'UTR(转录起始区域)对翻译调控的影响显著高于3'UTR,说明翻译起始过程在调节基因翻译强度方面至关重要。在第二种解释性算法中,研究者依赖Translatomer进一步开发出了计算模拟突变(in silico mutation)工具,能够利用Translatomer模型精准预测剪辑突变对所在基因的翻译效率的影响,并利用了Kozak元件和荧光报告系统对计算模拟突变算法的准确性进行了验证。利用该工具,研究团队发现与翻译调控相关的遗传变异在物种进化中受到了选择压力。
在建立起Translatomer模型以及可解释性工具后,研究者进一步鉴定了3041个影响翻译效率的复杂疾病遗传位点。这些疾病位点是同义突变位点或位于非翻译区;尽管这些变异不会直接改变蛋白质序列,但通过影响翻译过程,它们对多种复杂疾病的发生产生了重要影响。通过与基因表达数量遗传性状(eQTL)作进一步的整合分析,研究者发现这部分位点不会对mRNA的水平产生影响,因此揭示了这些遗传疾病位点的机制是通过特异地影响翻译过程从而调控疾病的发生发展。此外,这些遗传疾病位点对于翻译的影响也具有组织/细胞类型特异性,例如阿尔茨海默病、自闭症等疾病相关位点对翻译的调控特异地发生在大脑组织,而心肌病、心衰等疾病相关位点则在心脏中产生特异的翻译调控。
综上所述,该深度学习模型Translatomer为领域提供了研究基因翻译调控的新工具,还为解释复杂疾病中的遗传变异提供了除了mRNA水平之外的重要机制基础。通过分析不同细胞类型中的特异性翻译调控,为未来的疾病诊断和个性化治疗开辟了新的层次和靶点。
浙江大学熊旭深课题组科研助理何佳临和麻省理工学院熊磊(现为斯坦福大学博士后)为该论文共同第一作者,浙江大学良渚实验室/附属第二医院熊旭深研究员和熊磊博士为该论文共同通讯作者。浙江大学李静云研究员、胡新央教授、毛圆辉研究员、麻省理工理工学院Manolis Kellis教授、Carles A.Boix博士以及Xiong Lab多名成员对该工作做出重要贡献。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。